我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
我们考虑了一个特殊的强盗问题,即批量炸匪。通过推荐制度和电子商务平台的自然限制,我们假设学习代理观察在一定时间内在分组中分批的响应。与以前的工作不同,我们考虑一个更实际相关的批量学习场景。我们为候选政策的遗憾提供了政策 - 不可知的遗憾分析,并展示上下界限。我们的主要理论结果表明,批量学习的影响可以根据在线行为来衡量。最后,我们通过进行经验实验并反映最佳批量尺寸选择来证明理论结果的一致性。
translated by 谷歌翻译
在本文中,我们研究了随机控制屏障功能(SCBF),以在存在不确定性的情况下实现概率安全实时控制器的设计,并基于嘈杂的测量。我们的目标是设计控制器,该控制器将系统故障的概率与给定的所需值相结合。为此,我们首先使用扩展的卡尔曼滤波器从嘈杂测量估计系统状态,并计算过滤错误上的置信区间。然后,我们根据估计的状态归因于过滤错误并在控制输入上导出足够的条件,以绑定系统的实际状态在有限时间间隔内输入不安全区域的概率。我们表明,这些充足的条件是对控制输入的线性约束,因此,除了可达性等其他性能之外,它们可以用于实现安全性以实现安全性,以及稳定性。我们的方法是使用浓密交通的高速公路上的车道改变情景进行了评估。
translated by 谷歌翻译
近年来,情感分析方法的表现大大增加。这是由于基于变压器架构的各种模型,特别是伯特。然而,深度神经网络模型难以训练和可解释不佳。一种替代方法是使用情绪词典的基于规则的方法。它们快速,不需要培训,并被解释得很好。但最近,由于深入学习的广泛使用,基于词汇的方法已经退出了背景。本文的目的是研究SO-CAL和Sentistrength Lexicon的方法,适用于俄语。我们已经测试了这些方法,以及rubert神经网络模型,16个文本语料库,并分析了他们的结果。Rubert平均优于基于词汇的方法,但So-Cal超过了16个Corea的Rubert超过16。
translated by 谷歌翻译
灾难事件后立即可用的高分辨率卫星图像对于响应计划至关重要,因为它促进了对临界基础设施状态的广泛情境意识,例如建立损坏,洪水和障碍物来访问路线。此规模的损坏映射将需要数百人的专家小时。然而,众包的组合和深度学习的最新进步将实时降低几个小时需要的努力。要求志愿者放置点标记,而不是实际受损区域的形状,显着降低灾难期间响应所需的分析时间。但是,不同的志愿者可能在标记中不一致。这项工作提出了用于汇总可能不一致的损伤标记以培训神经网络损伤探测器的方法。
translated by 谷歌翻译